ビジネス統計学
(
平成28
年度後期)
—
講義用ノート—
谷 口 説 男
(
九州大学 基幹教育院) (
平成28
年12
月28
日版)
0This note is c⃝2016, 2017 by Setsuo Taniguchi. It may be used for personal or classroom purposes, but not for commercial purposes.
i
はじめに
統計学の歴史
(http://www.stat.go.jp/teacher/c2epi1.htm
から)•
データの収集“国勢調査”=国の実情を知る…徴兵,徴税,福祉
statistics (英) ⇐ statistik (独) ⇐ status (ラテン=国家・状態)
歴史は古い…古代エジプト,ローマ帝国※
IBM
はもとは国勢調査用紙を作ってた.•
データから規則性を見出す アマゾン,顧客管理,…ICT
の発展で非常に扱いやすくなった♢
ハレー(1956-1742)
:死亡記録から死亡年齢を解析.終身年金価格決定に寄与.
♢
ナイチンゲール(1820-1910):戦死者・傷病者のデータ解析により,治療・
衛生状況が死因であることを見出す
(見やすい円グラフ).
•
確率的事象をとらえる自然科学,工学,耐久検査,品質管理,
数理統計学
(データ) = (真の値) + (誤差)
♢
ドゥ・モワブル(年金論→保険数理)
♢
ベルヌーイ(天然痘の罹病率,死亡率→数理疫学)
♢
オイラー,ラプラス(
フランスの人口推計)
この講義では…
エクセルを使って実際に計算をしてみます.
PC
必携です.必要な資料は
http://www.artsci.kyushu-u.ac.jp/
∼se2otngc/
CONTENTS ii
Contents
1
データを伝える1
1.1
特徴を語る量. . . . 1
1.2
やってみよう. . . . 1
1.3
特徴を語ってもデータを語らない. . . . 2
1.4
標本分散(sample variance) . . . . 3
1.5
ヒストグラム. . . . 3
2
確率論速習4 2.1
確率変数. . . . 4
2.2
離散型確率変数,連続型確率変数. . . . 4
2.3
期待値. . . . 6
2.4
分散. . . . 8
3
大数の法則9 3.1
独立なコピー. . . . 9
3.2
大数の法則. . . . 10
4
中心極限定理11 4.1
はじめに. . . . 11
4.2
正規分布. . . . 11
4.3
中心極限定理. . . . 12
5
信頼区間–比率14 5.1
比率. . . . 14
5.2
比率の最小値の保証. . . . 14
5.3
比率の最大値の保証. . . . 15
5.4
もう少し先へ. . . . 16
6
相関係数17 6.1
散布図. . . . 17
6.2
相関係数. . . . 17
6.3
相関係数と散布図. . . . 18
7
単回帰分析19 7.1
単回帰分析. . . . 19
7.2
回帰分析の応用. . . . 21
8
差はあるのか?—平均の差の検定25 8.1
検定の考え方. . . . 25
8.2
モデルの導入. . . . 25
8.3
片側検定. . . . 29
CONTENTS iii
9
差はあるのか?—
独立性の検定31
9.1
サンドイッチの嗜好. . . . 31
9.2
ピアソンのχ
2(
カイ二乗)
独立性検定. . . . 32
9.3
適合度検定. . . . 33
10
組み合わせで売れ行きは変わる?—交互作用の検定35
10.1
はじめに. . . . 35
10.2
グラフでは. . . . 35
10.3
分散分析—交互作用. . . . 35
1
データを伝える1
1.
データを伝えるイベントに集まった人の年齢の一覧表:
17 19 21 20 19 19 21 20 20 21
19 21 19 18 20 20 19 19 20 21
21 21 20 19 19 18 21 19 19 21
20 21 20 19 21 20 19 21 19 20
21 20 20 21 20 21 21 20 18 20
20 20 19 22 22 20 21 20 20 19
21 20 22 19 21 19 22 20 20 20
21 20 19 20 19 20 20 20 18 21
18 21 20 19 20 20 20 22 19 19
22 20 18 19 18 21 21 19 22 19
この表をどう説明するか?
1.1.
特徴を語る量1.1.1.
最大値一番大きい値
1.1.2.
最小値一番小さい値
1.1.3.
平均値データの総和 データの個数
1.1.4.
中央値小さい順に並べ直した時の「中央」の値
※ データが奇数個⇒
(データの個数) + 1
2
番目※ データが偶数個⇒ データの個数
2
番目と データの個数2 + 1
番目の平均1.2.
やってみようデータは
95,78,85,56,69,89,87,72,80
1.2.1.
まずは手で 並べ替えておくと早い1.2.2.
エクセルで(a)
データの個数:COUNT
1
データを伝える2
(b)
最大値:(i) [
データ]–[
並べ替え]
,(ii) MAX (c)
最小値:(i) [
データ]–[
並べ替え]
,(ii) MIN (d)
平均値:(i)SUM
,(ii) AVERAGE
(e)
中央値:(i)[データ]–[並べ替え],(ii) MEDIAN 1.2.3.
上の一覧表だと?1.3.
特徴を語ってもデータを語らない1.3.1.
最大値が同じ1.3.2.
最小値が同じ1.3.3.
平均値が同じ1.3.4.
中央値が同じ1.3.5.
最大値と最小値が同じ1.3.6.
平均値と中央値が同じ1.3.7.
最大値と最小値と中央値が同じ1.3.8.
最大値と最小値と平均値が同じ1.3.9.
最大値と最小値と平均値と中央値が同じ1
データを伝える3
1.4.
標本分散(sample variance)
1.4.1.
ばらつき具合を見る(ボラティリティ,日経 225
オプション)1.4.2.
( (データ) −
平均値)
2の総和 データ数
1.4.3.
前回の95,78,85,56,69,89,87,72,80
だと?前回の一覧表だと?
(a)
データ⇒平均値⇒(
データ)-
平均値⇒二乗⇒総和⇒データ数で割る(b) VAR.P
【注意】エクセルには分散
(variance)
にちなむ関数がいくつかある.VAR.P
は標本分散を計算するが,VAR.Sは「不偏分散」を計算する.不偏分散は,分母が『(データ数)−1』となっている.その名の通り 不偏分散は「不偏推定」と呼ばれる統計手法と相性がよい.標本分散 は「最尤推定」と呼ばれる統計手法と相性が良い.
1.4.4.
平均と標準偏差が同じ?(85,95),(58,64,66,72) 1.5.
ヒストグラムデータは,
65 73 88 76 83 94 84 77 85 76 85 82 74 78 63 81 69 97 96 74 1.5.1.
度数分布表60
点台3 70
点台7 80
点台7 90
点台3
1.5.2.
表を描いてみようCOUNTIF
1.5.3.
ヒストグラムを描いてみよう[
挿入]
−[
グラフ]
−棒グラフ1.5.4.
こちらも65
,66
,93
,77
,79
,94
,95
,98
,85
,66
,84
,82
,68
,75
,63
,83
,65
,93,95,74
2
確率論速習4
2.
確率論速習2.1.
確率変数2.1.1.
違うものですか?・1枚のコインを投げて「裏,表」を見る
・赤玉,白玉
10
個ずつが入った袋から玉を抜き出し「赤,白」を見る・サイコロを投げて出目が「奇数,偶数」を見る
「目くらまし」から無駄なベールをはぎ取る
♢
二種類のものを代表するのは「0
,1
」⇔「数字」2.1.2.
確率変数X :
a
と一致するという事象{ X = a } a
より小さいという事象{ X ≦ a }
の確率
P(X = a) P(X ≦ a)
が確定!2.1.3.
【例】(a)
サイコロの出た目X;
P(X = i) =
16(i = 1, , . . . , 6)
(b)
コインを5
枚投げたとき表が出た枚数X ;
○●○○●P(X = i) =
5C
i(
12
)
5(i = 0, . . . , 5)
(c)
鉛筆を回しy
軸となす角度X;
P(X ≦ a) =
2πa(0 ≦ a ≦ 2π) 2.1.4.
なんで確率変数?
(a) (データ)=(真の値)
+“誤差”
(b) “誤差”
をどう扱う? ⇒ 値の様子の確からしさは分かる(c)
「確からしさは分かる」=モデルを立てて議論する最小の前提2.2.
離散型確率変数,連続型確率変数2.2.1.
離散型確率変数P(X = a
i) = p
i(i = 1, . . . , n)
となっているとき,離散型変数という.2.2.2.
【例】(a)
公平なコイン投げ表のとき
X = 0,裏のとき X = 1
と書くことにすれば,P(X= 0) =
P(X = 1) =
12である.2
確率論速習5
(b)
公平なサイコロ投げ出目を
X
とすれば,P(X = 1) = P(X = 2) = P(X = 3) = P(X = 4) = P(X = 5) = P(X = 6) =
16(c)
表が2
倍出やすいコイン投げP(X = 0) =
23, P(X = 1) =
132.2.3.
連続型確率変数P(X ≦ a) =
∫
a−∞
f (x)dx
となっているとき,連続型確率変数という.※世の中は連続型確率変数に満ち満ちている…株価,支持率,…
♠
∫
a−∞
f (x)dx?
(a)
積分(1)
グラフy = f (x)
の囲む面積∫
a bf (x)dx =
緑の領域の面積 計算方法:幅の狭い長方形で近似する∑
n k=1f (
(a−nb)k) × a − b n
n
−→
→∞∫
a bf (x)dx (b)
積分(2)b → ∞
∫
a bf (x)dx
b−→
→∞∫
a−∞
f (x)dx
2
確率論速習6
(c) b → ∞ ?
どんどん大きくしても有限で止まる?
アキレスと亀• 100m
差を開けて同時にスタートする.•
アキレスが亀のいた場所に着くと必ず亀は少し前にいる.•
よって,アキレスは亀に追いつけない.•
アキレスは秒速1m,亀は秒速 1cm
とする.•
アキレスが亀のいた場所にたどり着くのに100
秒かかる.この間 に亀は1cm/秒 × 100
秒=10cm=1m先に進んでいる.•
この1m
を進むのにアキレスは1
秒かかる.この間に亀は1cm/秒
× 1
秒=1cm=0.01m進んでいる.•
この0.01m
を進むのにアキレスは0.01
秒かかる.この間に亀は1cm/秒 × 0.01
秒=1cm=0.0001m進んでいる.•
これらを繰り返すと,アキレスが亀のいた場所にたどり着くため の時間はどんどん短くなって,1
秒,0.01
秒,0.0001
秒,0.000001
秒,…と減っていく.これらの和は
1
→1.01
→1.0101
→1.010101
→…とどんどん「01」が増えていく少数になる.これは実は
100
99
となる.2.3.
期待値2.3.1.
期待値E[X ];
(1) P(X = a
i) = p
i(i = 1, . . . , n)
となっているとき(離散型) E[X ] =
∑
n i=1a
ip
i. (2) P(X ≦ a) = ∫
a−∞
f (x)dx
となっているとき(連続型) E[X] =
∫
∞−∞
xf(x)dx.
2.3.2.
【例】(1)∑
6 i=1i × 1 6 = 7
2
2
確率論速習7
(2)
∑
5 i=0i ×
5C
i1 32 = 1
32
( 0 × 1 + 1 × 5 + 2 × 10 + 3 × 10 + 4 × 5 + 5 × 1 = 5 2 (3)
∫
∞−∞
x 1
2π 1
[0,2π]dx = π
※
F (a) = 0 (a < 0),=
a2π
(0 ≦ a ≦ 2π),= 1 (a > 2π).
2.3.3.
宝くじX =賞金額とすると,E[X]
は期待賞金額.オータムジャンボ宝くじ(2014年
9
月19
日〜10月10
日);発売数13
ユ ニット(1ユニット=10万枚×100
組=10,00万枚)期待賞金? (やってみよう)
2.3.4. Quiz
(a)
コイン4
枚を投げる.表を向いた枚数が偶数ならば,枚数×100
円を 貰えるゲームがある.ゲームへの参加費をいくらにすれば胴元は損を しないか?(b)
上のゲームのプレーヤーの利益の期待値はいくらか?2
確率論速習8
前回の
Quiz
表が
2
枚出る確率は4C
2( 1 2
)
4= 6 × 1 16 = 3
8
であり,4枚出る確率は4
C
4(1 2
)
4= 1 × 1 16 = 1
16
である.○○●●,○●○●,○●●○,●●○○,●○●○,●○○●
(
端が表,あと一つどこに表が出るか?
端が裏,あと一つどこに裏が出るか?) 2
枚もしくは4
枚表がでないときの賞金は0
円で,その確率は残りの1 − 3 8 − 1
6 = 9 16
となる.(※
0
枚も偶数で賞金が出そうだが,賞金は0
円!) よって,期待賞金E[X ]
はE[X ] = 0 × 9
16 + 200 × 3
8 + 400 × 1
16 = 75 + 25 = 100
である.2.4.
分散2.4.1.
分散V(X) = E [
(X − E[X])
2]
※
(X − E[X ])
2は「確率変数X
と期待値E[X ]
の距離の2
乗」であるから,分散は「ばらつき度合い」を表している.
※ ばらついている=基点からの距離が
0
でないものがたくさんある.※ ばらついていない例として,いつでも
1
の目しか出ないサイコロを考え よう.このとき,さいころの目を表す確率変数X
に対し,P(X= 1) = 1,
P(X = i) = 0 (i = 2, . . . , 6)
となる.したがって,E[X] = 1 × 1 +
∑
6 i=2i × 0 = 1,
V(X ) = (1 − 1)
2× 1 +
∑
6 i=2(i − 1)
2× 0 = 0.
すなわち,
V(X ) = 0
である.2.4.2.
【例】コイン投げを実現する確率変数は,X(表) = 1,X (裏) = 0
である.「表が出る確率が
p
である」ということは,P(X= 1) = p
と表現できる.この
X
の期待値と分散はE[X ] = 1 × p + 0 × (1 − p) = p,
V(X) = (1 − p)
2× p + (0 − p)
2× (1 − p) = p(1 − p)
となる.3
大数の法則9
3.
大数の法則3.1.
独立なコピー3.1.1.
独立(a)
事象A, B
が独立:P(A∩ B) = P(A)P(B)
(b)
事象A, B, C
が独立:A, Bが独立,B, Cが独立,かつC, A
が独立で,さらに
P(A ∩ B ∩ C) = P(A)P(B)P(C)
(c)
事象A
1, . . . , A
nが独立:任意の(n − 1)
個が独立で,さらにP(A
1∩ · · · ∩ A
n) = P(A
1) × · · · × P(A
n)
(d)
確率変数X, Y
が独立:{ X ≦ a } , { Y ≦ b }
が独立.(e)
確率変数X, Y, Z
が独立:{ X ≦ a } , { Y ≦ b } , { Z ≦ c }
が独立.(f)
確率変数X
1, . . . , X
nが独立:{ X
1≦ a
1} , . . . , { X
n≦ a
n}
が独立.3.1.2. X
の独立なコピーX
1, X
2, . . . X
1, X
2, . . .
は独立で,P(X = a) = P(X
1= a) = P(X
2= a) = . . . P(X ≦ a) = P(X
1≦ a) = P(X
2≦ a) = . . . (
すべてのa)
となること.3.1.3.
【例】サイコロ投げの出た目をX
とする.このサイコロを繰り返し投げる.1
回目に出た目をX
1,2回目に出た目をX
2,…とする.X1, X
2, . . .
はX
の独立なコピーである.3.1.4.
いかさまサイコロ サイコロを2
回投げる.2回目の目は1
回目の目と同じ 目となる確率が他の目の2
倍であると仮定する.1回目に出た目をX,2
回 目に出た目をY
とすると,このX, Y
は独立ではない.上の例では独立性の暗黙の約束がある.
3.1.5.
危険な曲がり角(for whom?):
(a)
『A, B
が独立,B, C
が独立⇒A, C
は独立』は嘘 例えば,トランプを引いて模様(
スーツ)
を観る.A = {♢ , ♡}
,B = {♢ , ♠}
,C = {♠ , ♣}
(b)
『A, B
が独立,B, C
が独立,A, C
は独立⇒A, B, C
は独立』は嘘 再びトランプ.A= {♢ , ♡}
,B= {♢ , ♠}
,C= {♠ , ♡}
(c)
発想を変えてi.
『X, Y
が独立,Y, Z
が独立⇒X, Z
は独立』は正しい?
ii.
『X, Y
が独立,Y, Z
が独立,Z, X
が独立⇒X, Y, Z
は独立』は正 しい?
3
大数の法則10
3.2.
大数の法則3.2.1.
大数の法則X
1, X
2, . . .
がX
の独立なコピーならば,確率1
で,nが十分 大きければX
1+ · · · + X
nn ≒ E[X]
となる.
3.2.2.
【例】表が出る確率が0.7
のコインをn
回投げる.X
1= {
1 (1
回目は表)
0 (1
回目は裏), X
2= {
1 (2
回目は表) 0 (2
回目は裏), . . .
とする.1
回目2
回目· · ·
(n − 1)
回目n
回目1 0 . . . 0 0
♠ X
1+ · · · + X
n=n
回で表が出た回数♠ X
1+ · · · + X
nn =n
回で表が出る頻度♠ n
が大きければ,「n
回で表が出る頻度≒0.7
」(E[X ] = 0.7)
3.2.3.
公平なコイン 公平なコイン,すなわち,表が出る確率,裏が出る確率がそれぞれ12のコイン.(E[X
] =
12)
♠
「2
回に1
回表が出る」は×♠
「1万回に5
千回表が出る」は○♢
「公平」というふれ込みのコインを5
千回投げたら,2989回表が出た.公平ですか?…たぶん怪しい.
では,もし,表が出たのは
2,548
回だったら?
3.2.4.
顧客の嗜好調査 顧客1,000
人に新商品を買いたいかどうかアンケート調査 をした.700人がYes.
『顧客=コイン』『表が出る=購入する』と見做すと,「7割がた,購入する」と説明できる!!
3.2.5.
保険金の平均支払金額 『自動車保険での総支払額/支払件数』が平均支払金となる.しかしこれは,単純な平均値ではなく,大数の法則に保証され た支払金額の「推定値」である.
(支払額)=(真の支払額)+(揺らぎ)
(揺らぎ)=確率変数,期待値は 0
のはず(なぜ?)
支払額の総和
支払件数
= (真の支払額) +
揺らぎの総和支払件数
4
中心極限定理11
4.
中心極限定理4.1.
はじめに4.1.1.
大数の法則の弱点 顧客の満足度調査をした.満足したと答えた人が,100人中
94
人いた.もう少し詳しい調査では,1,000人中936
人が満足したと 回答した.大数の法則では,94% =
94
100
,93.6% =936
1000
のどちらも≒E[X ] (期待値
の近似値)
である.では,どちらを採用するのか?企業的には
94%
,しかし…4.2.
正規分布4.2.1.
正規分布g(x; µ, σ) = 1
√ 2πσ
2e
−(x2σ−µ)22 とおく.P(X ≦ a) =
∫
a−∞
g(x; µ, σ)dx
となるとき,確率変数X
は平均µ
,分散σ
2 の正規分布にしたがうという(記号 X ∼ N (µ, σ
2)).
4.2.2.
身近なe
x 年利x
で預金.年n
回の利息(複利).1
年後には(
1 + x n
)
n倍
n → ∞
とする(連続複利)
とe
xエクセルで試してみよう
! (EXP(x)
との比較)
x 1 0.1 0.3 4
exp(x) 1 5 .. .
100,000,000
4
中心極限定理12
4.2.3. Quiz
エクセルでy = g(x; µ, σ
2)
のグラフを描いてみよう.g(x; µ, σ
2)
を計算する方法は二つ.A1 = µ, B1 = σ, C1 = x
とする.(a)
自分で数式を書く.(1/SQRT(2 ∗ PI() ∗ $B$1^2)) ∗ EXP( − (C1 − $A$1)^2/(2 ∗ $B$1^2)) ($A$1
は絶対座標)(b)
エクセル関数NORM.DIST(a,µ,σ,False)
を使う.NORM.DIST(C1, $A$1, $B$1, False)
※注
1.σ
2ではなく,σ(偏差)
を使う.※注
2.
『True』は「積分を計算します」が「False」.グラフは「散布図」を(おすすめを参考に).
4.2.4. Quiz
エクセルで∫
a−∞
g(x; µ, σ)dx
を求めてみよう.エクセル関数
NORM.DIST(a,µ,σ,True)
を使う※注
1.
『True』は「積分を計算します」が「True」.4.2.5.
標準化X ∼ N(µ, σ
2)
ならば,X − µ
σ ∼ N(0, 1) ( ∵ )
簡単な変数変換です…P
( X − µ σ ≦ a
)
= P(X ≦ µ + σa) =
∫
µ+σa−∞
√ 1
2πσ
2e
−(x−µ)22σ2dx
=
∫
a−∞
√ 1 2π e
−y2 2
dy
(
y = x − µ σ
) .
4.2.6.
再生性X
1, X
2, . . .
をX ∼ N(µ, σ
2)
の独立なコピーとする.このとき,X
1+ · · · + X
n− nµ σ √
n ∼ N (0, 1)
である.証明は略します,それなりの微積分の力が必要なので.
4.3.
中心極限定理4.3.1.
中心極限定理(1) E[X] = µ, V(X ) = σ
2とし,X1, X
2, . . .
はX
の独立な コピーとする.このとき,十分大きなn
に対し,X
1+ · · · + X
n− nµ σ √
n ∼ N (0, 1)
と見なしてよい.4.3.2.
記号Φ(a) =
∫
a−∞
√ 1 2π e
−x2
2
dx
とおく.4
中心極限定理13
4.3.3.
中心極限定理(2)
上と同じ設定で,十分大きなn
に対し,つぎが成り立つ.P
( X
1+ · · · + X
n− nµ σ √
n ≦ a
)
≒ Φ(a) (4.1)
P
( X
1+ · · · + X
n− nµ σ √
n ≧ − a
)
≒ Φ(a) (4.2)
X
1+ · · · + X
n− nµ σ √
n ≧ − a
は( − X
1) + · · · + ( − X
n) − n( − µ) σ √
n ≦ a
書き直せるから,(4.2)は
(4.1)
を− X
に適用したものである.4.3.4.
中心極限定理(3)
上の分子分母をn
で割り,算術平均X
n= X
1+ · · · + X
nを使って書き直す.すると,
n
P (
X
n− aσ
√ n ≦ µ )
≒ Φ(a) (4.3)
P (
X
n+ aσ
√ n ≧ µ )
≒ Φ(a) (4.4)
となる.
4.3.5. y = Φ(x)
のグラフ0, 0.2, 0.4, . . . , 5.8, 6, 6.2 (0.2
刻み)の値の計算をしてグ ラフを描こう.(a)
エクセル関数NORM.DIST(x, 0, 1,TRUE) (b)
エクセル関数NORM.S.DIST(x,TRUE)
4.3.6. Φ(x) = 0.99
となるx
は? エクセル関数NORM.S.INV(x) (a)
上の計算値の逆を求めてみよう.0,0.2, . . . , 6.2
は再現される?(b) z = 0, 0.6, 0.7, 0.8, 0.9, 0.95, 0.99, 0.995, 0.999, 0.9995, 0.9999
に対するΦ(x) = z
となるx
を求めよう.5
信頼区間–比率14
5.
信頼区間–
比率中心極限定理は「どのように使える」のだろうか?それを実例に当たりながらみ ていこう.
5.1.
比率5.1.1.
コイン投げ 例1.4.2
により,「表が出る確率がp
である」コインに対しては,E[X ] = p, V(X ) = p(1 − p)
である.「X = 1
」は「表が出る」,「X = 0
」は「裏が出る」を表していた.
このコインを
n
回投げる.i回目に表が出ることを「Xi= 1」,裏が出るこ
とを「Xi= 0」と表す.X
1, X
2, . . .
はX
の独立なコピーである.5.1.2.
コイン投げの算術平均X
1+ · · · + X
nは,n回投げたときに表が出た回数と なる.したがって,算術平均X
n= X
1+ · · · + X
nn
表が出る比率を与える.5.1.3.
比率と中心極限定理(4.3),(4.4)
により,P (
X
n− a √
p(1 − p)
√ n ≦ p )
≒ Φ(a)
P (
X
n+ a √
p(1 − p)
√ n ≧ p )
≒ Φ(a)
となる.
p(1 − p) ≦ 1 4
なので,これより,P (
X
n− a 2 √
n ≦ p )
≒ Φ(a) (5.1)
P (
X
n+ a 2 √
n ≧ p )
≒ Φ(a) (5.2)
となる.
5.2.
比率の最小値の保証5.2.1.
設定視点を変えて表が出る確率p
が未知なコインを考える.このコインをn
回投げて表,裏を記録する.すると表が出た比率X
nが分かる.(5.1)
により,「pは
X
n− a 2 √
n
より大きい」ということが確率
Φ(a)
の確からしさで主張できる.たとえば,
Φ(2.326) = 0.99
5
信頼区間–比率15
である.よって,
『コインの表が出る確率
p
はX
n− 2.326 2 √
n
より大きい』ということが,99%の確からしさでいえる.
5.2.2.
アンケートでの最低保証 アンケートに戻る.
(a) 100
人中94
人がYes
のとき,全体を推測する.94
100 − 2.326 2 √
100 ≒ 0.824
であるから,
Yes
という人が,少なくとも82.4%いる
ということが,99%
の確からしさでいえる.(b) 1,000
人中940
人がYes
のときはどうだろうか?このときは,
940
1000 − 2.326 2 √
1000 ≒ 0.903
であるから,
Yes
という人が,少なくとも90.3%いる
ということが,99%の確からしさでいえる.(c) 10,000
人中9,400
人がYes
のときはどうだろうか?
このときは,9400
10000 − 2.326 2 √
10000 ≒ 0.928
であるから,
Yes
という人が,少なくとも92.8%いる
ということが,99%の確からしさでいえる.5.3.
比率の最大値の保証5.3.1.
比率の最大値(5.2)
により,「pは
X
n+ a 2 √
n
より小さい」ということが確率
Φ(a)
の確からしさで主張できる.Φ(2.326) = 0.99
により,『コインの表が出る確率
p
はX
n+ 2.326 2 √
n
より小さい』ということが,99%の確からしさでいえる.
5.3.2.
アンケートでの最大保証 アンケートに戻る.(a) 100
人中48
人がYes
のとき,全体を推測する.48
100 + 2.326 2 √
100 ≒ 0.596
5
信頼区間–比率16
であるから,
Yes
という人が,高々59.6%
しかいない ということが,99%
の確からしさでいえる.(b) 1,000
人中480
人がYes
のときはどうだろうか?このときは,
480
1000 + 2.326 2 √
1000 ≒ 0.517
であるから,
Yes
という人が,高々51.7%
しかいない ということが,99%
の確からしさでいえる.(c) 10,000
人中4,800
人がYes
のときはどうだろうか?このときは,
4800
10000 + 2.326 2 √
10000 ≒ 0.491
であるから,
Yes
という人が,高々49.1%しかいない ということが,99%
の確からしさでいえる.5.4.
もう少し先へ5.4.1.
確からしさを変えてみたら上の二つを
95%
,90%
のときに確かめてみよう.5.4.2.
前の問題「公平」というふれ込みのコインを
1
万回投げたら,5,400回表が出た.公 平ですか?では,もし,表が出たのは5,150
回だったら?♠ 5,400
回のときは5400
10000 − 2.326 2 √
10000 ≒ 0.528 5400
10000 + 2.326 2 √
10000 ≒ 0.552
だから,98%(なぜ
99%ではない?)
の確からしさで表が出る確率は0.528
以 上,0.552以下.♠ 5,150
回のときは5150
10000 − 2.326 2 √
10000 ≒ 0.503 5150
10000 + 2.326 2 √
10000 ≒ 0.527
だから,98%(なぜ
99%ではない?)
の確からしさで表が出る確率は0.503
以 上,0.527以下.やはり公平とはいえない.♠
もし,5,050回ならば5050
10000 − 2.326 2 √
10000 ≒ 0.493 5050
10000 + 2.326 2 √
10000 ≒ 0.517
だから,
98%(
なぜ99%
ではない?)
の確からしさで表が出る確率は0.493
以 上,0.517以下.これなら「公平」らしい.6
相関係数17
6.
相関係数6.1.
散布図6.1.1.
データ最高気温 平均気温 最低気温 アイスクリーム売上げ
1
月9.9 6.6 3.5 780
2
月11.1 7.4 4.1 950
3
月14.4 10.4 6.7 1280
4
月19.5 15.1 11.2 1255
5
月23.7 19.4 15.6 1290
6
月26.9 23 19.9 1650
7
月30.9 27.2 24.3 2000
8
月32.1 28.1 25 2430
9
月28.3 24.4 21.3 1200
10
月23.4 19.2 15.4 1150
11
月17.8 13.8 10.2 1210
12
月12.6 8.9 5.6 1045
6.1.2.
気温を横軸に売り上げを縦軸にしてプロットしよう.♠
エクセルの散布図を使う6.2.
相関係数6.2.1. X
1, . . . , X
nの分散S
XS
X= 1
n
∑
n i=1(X
i− X
n)
2.
ただし,Xn= X
1+ · · · + X
nn
.6.2.2. X
1, . . . , X
nとY
1, . . . , Y
nの共分散S
XYS
XY= 1
n
∑
n i=1(X
i− X
n)(Y
i− Y
n).
6.2.3. X
1, . . . , X
nとY
1, . . . , Y
nの相関係数r
XYr
XY= S
XY√ S
X√ S
Y6.2.4. S
XX= S
X6.2.5. (a) X
1= Y
1, . . . , X
n= Y
nならば,r
XY= 1.
(b) Y
1= − X
1, . . . , Y
n= − X
nならば,r
XY= − 1
6
相関係数18
(c) Y
i= aX
i+ b
ならば,rXY= {
1 (a > 0)
− 1 (a < 0) . 6.2.6. X
とY
に強い相関があってもr
XY= 1
とはならない.例
X
1, . . . , X
10, Y
1, . . . , Y
10, Y
i= X
i4のときX 9 8 7 10 13
Y 6561 4096 2401 10000 28561
X 11 9 8 12 9
Y 14641 6561 4096 20736 6561 r
XY= 0.972
♠
エクセルで確かめてみよう!
6.2.7.
気温とアイスクリーム売上げの相関係数最高気温
0.980,平均気温 0.974,最低気温 0.958
♠
エクセルで確かめてみよう6.3.
相関係数と散布図相関係数と散布図の関係を次のデータで見てみよう
系列
1
系列2
系列3 21 47.1 86.8 111.3 68 106.6 62.4 38.7
54 89 36.3 29
10 26.4 103.9 28.9 47 143.8 57.2 72.5 78 177.5 37.9 34 53 155.5 76.5 78.2 46 81.7 35.4 43.9 14 30.8 108.5 3.4 34 116.4 67.7 7.2
12 34.7 137 48.2
72 167.3 8.5 109 78 138.3 26.3 30.9 29 48.2 115.7 81 59 102.7 40.1 58.5 17 44.3 121.5 114.3 89 211.5 7.7 60.5
57 87 15.5 74.7
63 95.6 72.5 67
27 73.1 85 82.5
7
単回帰分析19
7.
単回帰分析7.1.
単回帰分析7.1.1.
問題 平均気温とアイスクリームの売り上げの関係をより詳しく説明したい.たとえば,気温
20
度ならどの程度アイスクリームは売れるのか?平均気温 アイスクリーム売上げ
6.6 780
7.4 950
10.4 1280
15.1 1255
19.4 1290
23 1650
27.2 2000
28.1 2430
24.4 1200
19.2 1150
13.8 1210
8.9 1045
7.1.2.
アイディア 散布図に上手に直線y = ax + b
を引いてx = 20
を代入する!a, b
はどう求める?
7.1.3.
回帰直線(x
1, y
1), . . . , (x
n, y
n)
をデータとする.x = x
1+ · · · + x
nn , y = y
1+ · · · + y
nn ,
S
xy=
∑
n i=1(x
i− x)(y
i− y), S
xx=
∑
n i=1(x
i− x)
2, b
a = S
xyS
xx, b b = y − b ax
7
単回帰分析20
とおくと,
a = b a
,b = b b
が求めるa, b
である.直線
y = b ax + b b
を回帰直線と呼ぶ.7.1.4.
理由(1)
:最小二乗法Q(a, b) =
∑
n i=1{ y
i− (ax
i+ b) }
2(残差)
を最小にする.つぎの事実を使って変形していく:(通常の統計の教科書に書 いてある「偏微分」を使う説明は難しい)
S
xx= ∑
i
{ x
2i− 2xx
i+ (x)
2} = ∑
i
x
2i− 2nx
2+ nx
2= ∑
i
x
2i− nx
2, S
xy= ∑
i
{ x
iy
i− xy
i− yx
i+ xy } = ∑
i
x
iy
i− nxy − nxy + nxy
= ∑
i
x
iy
i− nx y, S
yy= ∑
i
y
i2− ny.
変形は,つぎの通り:
∑
i
{ y
i− (ax
i+ b) }
2= ∑
i
(y
i− ax
i− b)
2= ∑
i
{ y
i2+ x
2ia
2+ b
2− 2x
iy
ia + 2x
iab − 2y
ib }
= nb
2+ 2n(xa − y)b + (∑
i
x
2i)
a
2− 2 (∑
i
x
iy
i)
a + ∑
i
y
2i= n { b + (xa − y) }
2− n(xa − y)
2+ (∑
i
x
2i)
a
2− 2 (∑
i
x
iy
i) a + ∑
i
y
i2= n { b + (xa − y) }
2+ (∑
i
x
2i− nx
2)
a
2− 2 (∑
i
x
iy
i− nx y )
a + ∑
i
y
2i− ny
2= n { b + (xa − y) }
2+ S
xxa
2− 2S
xya + S
yy= n { b + (xa − y) }
2+ S
xx( a − S
xyS
xx)
2− S
xy2S
xx+ S
yy.
二つの( · · · )
2の項が0
となるときが最小である.7
単回帰分析21
7.1.5.
理由(2)
:統計量Y = ax + b + Z (Z ∼ N (0, σ
2))
という確率変数を考える.(
データにエラー がくっついている!)
Y
i= ax
i+ b + Z
iとし,Z
iはZ
の独立なコピーだとする.b a = S
xYS
xxb b = Y − b ax
とおく.b a, b b
は(a)
不偏推定量;E[ b a] = a, E[ b b] = b (b)
最尤推定量;尤度関数
L(a, b) = 1
√ 2πσ
2nexp (
− 1 2σ
2∑
n i=1(y
i− (a + bx
i))
2)
を最大にする
a, b.
※
∑
ni=1
(y
i− (a + bx
i))
2を最小にすることなので,最小二乗法に帰着!(c)
最小分散線形不偏推定量;e a =
∑
n i=1c
iY
i, e b =
∑
n i=1d
iY
iとすると
V( e a) ≧ V( b a), V(e b) ≧ V(b b).
7.1.6.
エクセルでa, b
を求める1)
実際にS
xx, S
xyを計算してみる.(
手間がかかる) 2)
エクセルの関数をつかうSLOPE
,INTERCEPT 3)
グラフに直線を引く!7.1.7.
最高気温でやってみよう7.2.
回帰分析の応用7.2.1.
トレンド分析損保会社の累積支払保険金の増加の様子
(トレンド)
を線形回帰する.1 2 3 4 5 6 7 8 9 10
117 208 335 433 538 701 803 857 966 1176
○ 回帰直線
y = 113.4545x − 10.6
○
11
年目の累積支払保険金:1237.4
○
11
年目に支払うであろう金額:1237.4 − 1176 = 61.4
7
単回帰分析22
○ やってみよう
1 2 3 4 5 6 7 8 9 10
239 476 719 953 1259 1500 1528 1673 2235 2375 7.2.2.
ロジスティック回帰(
もどき)
市場での占有率は,技術進展を繰り返せばどんどん上がるが当然
100%
を超 えない;○
y = 1
1 + e
ax+b という形(ロジスティック)
をしている.※ 一般のロジスティック回帰では分子は
1
でなく未知のK
となっており,これを求めることも問題となる.
○ このデータは次の通り:
7
単回帰分析23
1 2 3 4 5
0.006425725 0.011929039 0.013588838 0.031338532 0.040913811
6 7 8 9 10
0.05212115 0.080896291 0.135832283 0.15159588 0.237454253
11 12 13 14 15
0.297813165 0.341376055 0.520958623 0.545791293 0.627789932
16 17 18 19 20
0.719939233 0.802076416 0.859232933 0.908140584 0.942957833
21 22 23 24 25
0.950664594 0.965184638 0.979148139 0.986842793 0.992209042
26 27 28 29 30
0.992894015 0.996895595 0.997354583 0.998558411 0.998587263
○
z = ln ( 1
y − 1
)
と変形し,z = ax + b
という回帰曲線を求める.※
ln x
はx = e
zとなるz
を表す.エクセルではLN
を用いる.※ エクセルで
LOG
はlog
10のこと.○
a = 0.404, b = 5.291
となる.よって,ロジスティック回帰曲線はy = 1
1 + e
−0.404x+5.291 となる.○ やってみよう
1 2 3 4 5
0.064790694 0.090423841 0.111418814 0.142571342 0.211331758
6 7 8 9 10
0.288737166 0.355482215 0.368020098 0.533691118 0.589594203
11 12 13 14 15
0.606063121 0.753918853 0.824012705 0.857759485 0.891809752
16 17 18 19 20
0.923783022 0.892751872 0.938201537 0.97154412 0.981719392
7.2.3.
多項式回帰過去